“comparable corpus(可比语料库)”指在体裁、主题、时间、语言变体、文本长度等方面尽量匹配的一组语料集合,通常用于跨语言或跨群体对比研究。它与“parallel corpus(平行语料库)”不同:可比语料库的文本不必互为翻译,而是“可比较”的同类文本。
/ˈkɑːmp(ə)rəb(ə)l ˈkɔːrpəs/
A comparable corpus helps researchers compare language use across similar genres.
可比语料库帮助研究者在相似体裁之间比较语言使用方式。
Using a comparable corpus of news articles from two countries, the team analyzed differences in reporting style and keyword frequency.
研究团队使用两国新闻报道组成的可比语料库,分析了报道风格与关键词频率的差异。
comparable 来自拉丁语词根 comparare(比较、对照),经由法语进入英语,含义是“可比较的”。corpus 来自拉丁语 corpus(身体、整体),在语言学中引申为“文本集合/语料库”。合起来,“comparable corpus”就是“可用于对比分析的一组语料”。